第二章 数据仓库的数据存储与处理

填空题

1.调和数据是储存在企业级数据仓库(EDW)和操作型数据存储中的数据(锅)
5.使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。(锅)
8.数据仓库中存在不同综合级别的数据。一般把数据分成 4 个级别:早期细节级、当前细节级、轻度综合级和高度综合级。(锅)

简答题

10.什么是数据仓库的数据 ETL 过程?(锅)

答:
数据的 ETL 过程就是负责将操作型数据转换成调和数据的过程。如上面的 2.3.1 小节所述,这两种数据具有明显的区别,因此,数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。在为企业级数据仓库填充数据的过程中,数据调和可分为两个阶段:一是企业级数据仓库(EDW)首次创建时的原始加载;二是接下来的定期修改,以保持 EDW 的当前有效性和扩展性。
整个过程由四个步骤组成:抽取、清洗、转换、加载和索引。事实上,这些步骤可以进行不同的组合,如,可以将数据抽取与清洗组合为一个过程,或者将清洗和转换组合在一起。通常,在清洗过程中发现的拒绝数据信息会送回到源操作型业务系统中,然后将数据在源系统中加以处理,以便在以后重新抽取。

11.什么是星型模式?它的特征是什么?(锅)

在星模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。位于星形中心的实体是事实表,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。位于星模式四周的实体是维度实体,其作用是限制和过滤用户的查询结果,缩小访问范围。每个维表都有自己的属性,维表和事实表通过关键字相关联。